Адміністрація вирішила продати даний сайт. За детальною інформацією звертайтесь за адресою: rozrahu@gmail.com

Лабораторна робота №4

Інформація про навчальний заклад

ВУЗ:
Національний університет Львівська політехніка
Інститут:
Не вказано
Факультет:
Не вказано
Кафедра:
Не вказано

Інформація про роботу

Рік:
2024
Тип роботи:
Лабораторна робота
Предмет:
теорія інтелектуальних систем

Частина тексту файла

‘МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ „ЛЬВІВСЬКА ПОЛІТЕХНІКА” / Лабораторна робота №4 з дисципліни " Теорія інтелектуальних систем" на тему: «Дослідження та моделювання марківського процесу прийняття рішень (Markov Decision Process, MDP)» Львів 2017 Мета: Дослідити модель марківського процесу прийняття рішень (Markov Decision Process, MDP). Порядок виконання роботи 1. Реалізувати модель марківського процесу прийняття рішень (Markov Decision Process, MDP) (кількість станів обрати згідно варіанту). 2. Реалізувати модель взаємодії агента з середовищем у вигляді марківського процесу прийняття рішень (кількість доступних агенту дій обрати згідно варіанту). Модель оптимальної поведінки (цільова функція): сумарний виграш з відступаючим горизонтом (receding-horizon model). 3. Реалізувати алгоритм роботи "ідеального" агента (агента, який володіє повною інформацією про характеристики середовища) для випадку марківського процесу прийняття рішень. 4. Реалізувати програму обчислювального експерименту по дослідженню моделі взаємодії агента з стаціонарним випадковим середовищем. 5. Провести обчислювальний експеримент. Отримати усереднені залежності значень цільової функції від часу для 1) випадкового агента та 2) "ідеального" агента. 6. Порівняти отримані залежності та зробити висновки. Варіант: №2 N Кількість станів MDP Кількість доступних агенту дій  2 3 3   Код програми: // tis.lab4.2016 // lab4.c #include <stdio.h> #include <stdlib.h> #include <time.h> #include <tchar.h> #include <math.h> #define ENVTYPE 1 #define NACTIONS 3 #define NSTATES 3 #define NSTEPS 500 #define NREPLICAS 1000 #define REWARD 10//+1 #define PENALTY 0//-1 #define RLTYPE 5 //3 //4 #define RLEPSILON 0.1f #define RLTAU 0.12f // --------------------------------------- // global parameters and values int t; // current time step int T = NSTEPS; // number of time steps = number of interactions between agent and environment int n = NREPLICAS; // number of replicas int nA = NACTIONS; // number of actions int nS = NSTATES;// number of states // --------------------------------------- // environment int env = 1; // type of environment: // env = 0 -> se (stationary environment) // env = 1 -> mdp float sePa[NACTIONS];// se: probabilities of rewards for each action int ceState; // ce: current state of commutative environment float cePa[NSTATES][NACTIONS]; // ce: probabilities of reward for each action for each state of environment float cePs[NSTATES][NSTATES]; // ce: probabilities of transition from one state to another int mdpState; int mdpR[NSTATES][NACTIONS]; float mdpT[NSTATES][NACTIONS][NSTATES]; // --------------------------------------- // agent int agt ; // type of agent: // agt = 0 -> random agent // agt = 1 -> perfect agent // agt = 2 -> greedy RL // agt = 3 -> epsilon-greedy RL // agt = 4 -> softmax action selection // agt = 5 -> TD(0) // agt = 6 -> Q-learning int action = 0; // current action = {0, ... ,(nA-1)} int response; // current response of environment = {0;1}/{-1;+1} int paction[NSTATES]; // actions of perfect agent (per state) (MDP) float gammaVI = 0.1f; // learning rate for value iteration (MDP) float e = RLEPSILON; // epsilon value (epsilon-greedy RL) float tau = RLTAU; // tau value (softmax action selection) float k[NSTATES][NACTIONS]; // number of realizations for each action float r[NSTATES][NACTIONS]; // total reward for each action float Q[NSTATES][NACTIONS]; // estimated action value Q[i]=r[i]/k[i] for each action; float p[NACTIONS]; // selection probability for each action (softmax); int mdpPrevState;// previous state of MDP // --------------------------------------- // results for current replica float sumR; // total reward over time sumR(t) float avrR; // average reward over time avrR(t) = sumR(t)/t // --------------------------------------- // tabulated results float _sumR[NSTEPS][NREPLICAS]; float _avrR[NSTEPS][NREPLICAS]; // -------------...
Антиботан аватар за замовчуванням

15.02.2018 20:02

Коментарі

Ви не можете залишити коментар. Для цього, будь ласка, увійдіть або зареєструйтесь.

Завантаження файлу

Якщо Ви маєте на своєму комп'ютері файли, пов'язані з навчанням( розрахункові, лабораторні, практичні, контрольні роботи та інше...), і Вам не шкода ними поділитись - то скористайтесь формою для завантаження файлу, попередньо заархівувавши все в архів .rar або .zip розміром до 100мб, і до нього невдовзі отримають доступ студенти всієї України! Ви отримаєте грошову винагороду в кінці місяця, якщо станете одним з трьох переможців!
Стань активним учасником руху antibotan!
Поділись актуальною інформацією,
і отримай привілеї у користуванні архівом! Детальніше

Оголошення від адміністратора

Антиботан аватар за замовчуванням

пропонує роботу

Admin

26.02.2019 12:38

Привіт усім учасникам нашого порталу! Хороші новини - з‘явилась можливість кожному заробити на своїх знаннях та вміннях. Тепер Ви можете продавати свої роботи на сайті заробляючи кошти, рейтинг і довіру користувачів. Потрібно завантажити роботу, вказати ціну і додати один інформативний скріншот з деякими частинами виконаних завдань. Навіть одна якісна і всім необхідна робота може продатися сотні разів. «Головою заробляти» продуктивніше ніж руками! :-)

Новини